Phase 2:eval 集**绝不**能见过预标注
多数 HITL 项目搞砸的那一个决定。如果 eval 标签的种子是模型自己的预测,那你以后报的所有 F1 数字都对模型有偏。这件事第一天做很便宜,第四十天做很疼。
评测hitlml ops
3 篇文章
多数 HITL 项目搞砸的那一个决定。如果 eval 标签的种子是模型自己的预测,那你以后报的所有 F1 数字都对模型有偏。这件事第一天做很便宜,第四十天做很疼。
每批校验完的 episode 从 Label Studio 导出后,最直觉的动作就是立刻微调。为啥别这么干,以及一个真的「这次重训值得」时才触发的便宜节奏闸。
微调出模型 v3 时你得能回答「哪些导出的校验进了这个模型」。把整个训练集快照下来是显眼的答案、也是错的答案。版本化输入和推导过程;训练集是它们的函数。